Homework1 : Data Analysis and Preprocess

吕芳蕊 3120201053

[github仓库链接] : https://github.com/feimo49/Datamine/tree/main/Homework1

第一章 作业要求

1. 问题描述

本次作业中,自行选择2个数据集进行探索性分析与预处理。

2. 数据集

可选数据集包括:

Consumer & Visitor Insights For Neighborhoods
Wine Reviews (Chosen)
Oakland Crime Statistics 2011 to 2016 (Chosen)
Chicago Building Violations
Trending YouTube Video Statistics
Melbourne Airbnb Open Data
MLB Pitch Data 2015-2018

3. 数据分析要求

3.1 数据可视化和摘要

数据摘要
数据可视化

3.2 数据缺失的处理

观察数据集中缺失数据,分析其缺失的原因。分别使用下列四种策略对缺失值进行处理:

注意:在处理后,要可视化地对比新旧数据集。

第二章 数据可视化和摘要

1.数据摘要

数据集1 : Wine Reviews

winemag-data_first150k.csv
winemag-data-130k-v2.csv

数据集2 : oakland-crime-statistics-2011-to-2016

注:本实验中仅选择records-for-2011.csv和records-for-2016.csv为代表进行数据分析和可视化

records-for-2011.csv
records-for-2016.csv

2.数据可视化

数据集1 : Wine Reviews

winemag-data_first150k.csv
winemag-data-130k-v2.csv

数据集2 : oakland-crime-statistics-2011-to-2016

由于该数据集上没有严格意义上的数值属性,只有标称属性,因此无法对其进行可视化

第三章 数据缺失处理

数据集1 : Wine Reviews

winemag-data_first150k.csv

A.剔除缺失部分
B. 用最高频率值填补缺失值
C. 通过属性的相关关系填补缺失值
D.通过数据对象之间的相似性填补缺失值

winemag-data-130k-v2.csv

A .将缺失部分剔除
B.用最高频率值填补缺失值
C.通过属性的相关关系填补缺失值
D.通过数据对象之间的相似性来填补缺失值

数据集2 : oakland-crime-statistics-2011-to-2016

注:由于该数据集中没有严格意义上的数值属性,只有标称属性,无法用属性的相关关系和数据对象之间的相似性来填充缺失数据,因此本实验中仅使用剔除和最高频率两种方法进行缺失值填充

records-for-2011.csv

A.剔除缺失部分
B.用最高频率值填补缺失值

records-for-2016.csv

A.剔除缺失部分
B.用最高频率值填补缺失值